Diffusion Transformer
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
Claude 3 Opus.icon
概要
ImageNet のクラス条件付き画像生成タスクで、256x256 と 512x512 解像度の両方で最先端の FID スコアを達成。
先行研究と比べてどこがすごい?
最大の DiT-XL/2 モデルが、ImageNet 256x256 で FID 2.27、512x512 で FID 3.04 を達成し、従来の最先端の U-Net ベースのディフュージョンモデルを上回った。
Transformer ベースのディフュージョンモデルは、U-Net と比較して、スケーラビリティ、ロバスト性、効率性などの点で有利。
技術や手法のキモはどこ?
標準的な Vision Transformer (ViT) アーキテクチャに基づいており、パッチ化、複数の Transformer ブロック、線形デコーダで構成。 条件情報の組み込みには、アダプティブレイヤー正規化 (adaLN) が最も効果的。 モデルサイズ(S,B,L,XL)とパッチサイズ(2,4,8)の設計空間を探索し、モデルの Gflops を増やすことで生成サンプルの品質が向上。
どうやって有効だと検証した?
ImageNet データセットを用いて、256x256 と 512x512 解像度でクラス条件付き画像生成タスクを評価。
FID(Fréchet Inception Distance)を主要な評価指標とし、Inception Score、sFID、Precision/Recall も副次的な指標として報告。
異なるモデルサイズ、パッチサイズ、条件付け手法を比較し、Gflops と FID の関係を分析。
議論はある?
Transformer ベースのディフュージョンモデルは、他のドメインからのベストプラクティスや学習レシピを継承できる可能性がある。
標準化されたアーキテクチャは、ドメイン間の研究に新たな可能性を開く。
次に読むべき論文は?
本論文では言及されていませんが、関連する Transformer ベースのテキスト-画像生成モデル(DALL·E 2 や Stable Diffusion など)の論文を読むことで、さらなる理解が得られると思われます。